Что делает AI систему агентом?
Простыми словами, AI агент — это система, предназначенная для восприятия своей среды и выполнения действий для достижения конкретной цели. Это эволюция от стандартной большой языковой модели (LLM), усиленной способностями планировать, использовать инструменты и взаимодействовать с окружающей средой. Думайте об агентном ИИ как об умном ассистенте, который учится на работе. Он следует простому пятишаговому циклу для выполнения задач (см. рис.1):
- Получить миссию: Вы даете ему цель, например "организовать мое расписание."
- Сканировать сцену: Он собирает всю необходимую информацию — читает email, проверяет календари и получает доступ к контактам — чтобы понять, что происходит.
- Продумать: Он разрабатывает план действий, рассматривая оптимальный подход для достижения цели.
- Действовать: Он выполняет план, отправляя приглашения, планируя встречи и обновляя ваш календарь.
- Учиться и становиться лучше: Он наблюдает успешные результаты и адаптируется соответственно. Например, если встреча переносится, система учится из этого события для улучшения своей будущей производительности.

Рис.1: Агентный ИИ функционирует как интеллектуальный ассистент, постоянно обучаясь через опыт. Он работает через простой пятишаговый цикл для выполнения задач.
Агенты становятся все более популярными с ошеломляющей скоростью. Согласно недавним исследованиям, большинство крупных IT-компаний активно используют этих агентов, и пятая часть из них только начала в прошлом году. Финансовые рынки также обращают внимание. К концу 2024 года AI-агент стартапы привлекли более $2 миллиардов, и рынок оценивался в $5,2 миллиарда. Ожидается, что он взорвется до почти $200 миллиардов к 2034 году. Короче говоря, все признаки указывают на то, что AI-агенты будут играть огромную роль в нашей будущей экономике.
Всего за два года AI-парадигма радикально изменилась, перейдя от простой автоматизации к сложным автономным системам (см. рис. 2). Изначально рабочие процессы полагались на базовые промпты и триггеры для обработки данных с LLM. Парадигма эволюционировала к генерации дополненной извлечением (RAG), которая улучшила надежность, заземляя модели на фактической информации. Затем мы увидели развитие индивидуальных AI-агентов, способных использовать различные инструменты. Сегодня мы входим в эру агентного ИИ, где команда специализированных агентов работает в концерте для достижения сложных целей, отмечая значительный скачок в совместной силе ИИ.

Рис. 2: Переход от LLM к RAG, затем к агентному RAG, и наконец к агентному ИИ.
Цель этой книги — обсудить паттерны проектирования того, как специализированные агенты могут работать в концерте и сотрудничать для достижения сложных целей, и вы увидите одну парадигму сотрудничества и взаимодействия в каждой главе.
Прежде чем делать это, давайте изучим примеры, которые охватывают диапазон сложности агента (см. рис. 3).
Уровень 0: Основной движок рассуждения
Хотя LLM не является агентом сам по себе, он может служить рассуждающим ядром базовой агентной системы. В конфигурации 'Уровень 0' LLM работает без инструментов, памяти или взаимодействия с окружающей средой, отвечая исключительно на основе своих предобученных знаний. Его сила заключается в использовании своих обширных обучающих данных для объяснения установленных концепций. Компромисс за это мощное внутреннее рассуждение — полное отсутствие осведомленности о текущих событиях. Например, он не смог бы назвать победителя Оскара 2025 года за "Лучший фильм", если эта информация находится вне его предобученных знаний.
Уровень 1: Связанный решатель проблем
На этом уровне LLM становится функциональным агентом, подключаясь к внешним инструментам и используя их. Его решение проблем больше не ограничено его предобученными знаниями. Вместо этого он может выполнять последовательность действий для сбора и обработки информации из источников, таких как интернет (через поиск) или базы данных (через генерацию дополненную извлечением, или RAG). Для детальной информации обратитесь к главе 14.
Например, чтобы найти новые телешоу, агент распознает необходимость в текущей информации, использует инструмент поиска для ее поиска, а затем синтезирует результаты. Критично, он также может использовать специализированные инструменты для более высокой точности, такие как вызов финансового API для получения живой цены акций AAPL. Эта способность взаимодействовать с внешним миром через множественные шаги является основной возможностью агента Уровня 1.
Уровень 2: Стратегический решатель проблем
На этом уровне возможности агента значительно расширяются, охватывая стратегическое планирование, проактивную помощь и самосовершенствование, с промпт-инженерией и инженерией контекста как основными навыками.
Сначала агент выходит за рамки использования одного инструмента для решения сложных многочастных проблем через стратегическое решение проблем. По мере выполнения последовательности действий он активно выполняет инженерию контекста: стратегический процесс выбора, упаковки и управления наиболее релевантной информацией для каждого шага. Например, чтобы найти кофейню между двумя локациями, он сначала использует инструмент картографирования. Затем он инженерит этот вывод, курируя короткий, сфокусированный контекст — возможно, просто список названий улиц — для подачи в локальный инструмент поиска, предотвращая когнитивную перегрузку и обеспечивая эффективность и точность второго шага. Для достижения максимальной точности от ИИ ему должна быть дана короткая, сфокусированная и мощная информация. Инженерия контекста — это дисциплина, которая достигает этого, стратегически выбирая, упаковывая и управляя наиболее критической информацией из всех доступных источников. Она эффективно курирует ограниченное внимание модели для предотвращения перегрузки и обеспечения высококачественной, эффективной производительности на любой данной задаче. Для детальной информации обратитесь к Приложению A.
Этот уровень приводит к проактивной и непрерывной работе. Туристический ассистент, связанный с вашим email, демонстрирует это, проектируя контекст из многословного email подтверждения рейса; он выбирает только ключевые детали (номера рейсов, даты, локации) для упаковки для последующих вызовов инструментов к вашему календарю и API погоды.
В специализированных областях, таких как разработка программного обеспечения, агент управляет целым рабочим процессом, применяя эту дисциплину. Когда назначается отчет об ошибке, он читает отчет и получает доступ к кодовой базе, затем стратегически инженерит эти большие источники информации в мощный, сфокусированный контекст, который позволяет ему эффективно писать, тестировать и отправлять правильный патч кода.
Наконец, агент достигает самосовершенствования, улучшая свои собственные процессы инженерии контекста. Когда он просит обратную связь о том, как промпт мог быть улучшен, он учится лучше курировать свои начальные входы. Это позволяет ему автоматически улучшать то, как он упаковывает информацию для будущих задач, создавая мощный, автоматизированный цикл обратной связи, который увеличивает его точность и эффективность со временем. Для детальной информации обратитесь к главе 17.

Рис. 3: Различные примеры, демонстрирующие спектр сложности агента.
Уровень 3: Подъем совместных многоагентных систем
На Уровне 3 мы видим значительный сдвиг парадигмы в разработке ИИ, отходя от преследования единственного, всемогущего супер-агента и двигаясь к подъему сложных, совместных многоагентных систем. По сути, этот подход признает, что сложные вызовы часто лучше всего решаются не одним универсалом, а командой специалистов, работающих в концерте. Эта модель напрямую отражает структуру человеческой организации, где разные отделы назначаются конкретными ролями и сотрудничают для решения многогранных целей. Коллективная сила такой системы заключается в этом разделении труда и синергии, созданной через скоординированные усилия. Для детальной информации обратитесь к главе 7.
Чтобы оживить эту концепцию, рассмотрите сложный рабочий процесс запуска нового продукта. Вместо одного агента, пытающегося обработать каждый аспект, агент "Менеджер проекта" мог бы служить центральным координатором. Этот менеджер оркестрировал бы весь процесс, делегируя задачи другим специализированным агентам: агенту "Исследование рынка" для сбора данных о потребителях, агенту "Дизайн продукта" для разработки концепций, и агенту "Маркетинг" для создания промо-материалов. Ключом к их успеху была бы бесшовная коммуникация и обмен информацией между ними, обеспечивая выравнивание всех индивидуальных усилий для достижения коллективной цели.
Хотя это видение автономной, командной автоматизации уже разрабатывается, важно признать текущие препятствия. Эффективность таких многоагентных систем в настоящее время ограничена ограничениями рассуждения LLM, которые они используют. Более того, их способность подлинно учиться друг у друга и улучшаться как сплоченная единица все еще находится на ранних стадиях. Преодоление этих технологических узких мест является критическим следующим шагом, и doing so разблокирует глубокое обещание этого уровня: способность автоматизировать целые бизнес-рабочие процессы от начала до конца.
Будущее агентов: Топ-5 гипотез
Разработка AI-агентов прогрессирует с беспрецедентной скоростью в таких областях, как автоматизация программного обеспечения, научные исследования и обслуживание клиентов, среди других. Хотя текущие системы впечатляют, они только начало. Следующая волна инноваций, вероятно, будет сосредоточена на том, чтобы сделать агентов более надежными, совместными и глубоко интегрированными в нашу жизнь. Вот пять ведущих гипотез о том, что дальше (см. рис. 4).
Гипотеза 1: Появление универсального агента
Первая гипотеза заключается в том, что AI-агенты эволюционируют от узких специалистов в истинных универсалов, способных управлять сложными, неоднозначными и долгосрочными целями с высокой надежностью. Например, вы могли бы дать агенту простой промпт, такой как "Спланируйте корпоративный выезд моей компании для 30 человек в Лиссабоне в следующем квартале." Агент затем управлял бы всем проектом в течение недель, обрабатывая все от одобрений бюджета и переговоров о рейсах до выбора места проведения и создания детального маршрута из обратной связи сотрудников, все время предоставляя регулярные обновления. Достижение этого уровня автономности потребует фундаментальных прорывов в рассуждении ИИ, памяти и почти идеальной надежности. Альтернативный, но не взаимоисключающий подход — это подъем малых языковых моделей (SLM). Эта "лего-подобная" концепция включает композицию систем из маленьких, специализированных экспертных агентов, а не масштабирование единственной монолитной модели. Этот метод обещает системы, которые дешевле, быстрее отлаживать и легче развертывать. В конечном счете, развитие больших универсальных моделей и композиция меньших специализированных — оба правдоподобные пути вперед, и они могли бы даже дополнять друг друга.
Гипотеза 2: Глубокая персонализация и проактивное обнаружение целей
Вторая гипотеза постулирует, что агенты станут глубоко персонализированными и проактивными партнерами. Мы являемся свидетелями появления нового класса агента: проактивного партнера. Учась из ваших уникальных паттернов и целей, эти системы начинают переходить от простого следования приказам к предвидению ваших потребностей. AI-системы работают как агенты, когда они выходят за рамки простого ответа на чаты или инструкции. Они инициируют и выполняют задачи от имени пользователя, активно сотрудничая в процессе. Это выходит за рамки простого выполнения задач в область проактивного обнаружения целей.
Например, если вы исследуете устойчивую энергию, агент может идентифицировать вашу скрытую цель и проактивно поддерживать ее, предлагая курсы или резюмируя исследования. Хотя эти системы все еще развиваются, их траектория ясна. Они станут все более проактивными, учась брать инициативу от вашего имени, когда высоко уверены, что действие будет полезным. В конечном счете, агент становится незаменимым союзником, помогая вам обнаруживать и достигать амбиции, которые вы еще не полностью сформулировали.

Рис. 4: Пять гипотез о будущем агентов
Гипотеза 3: Воплощение и взаимодействие с физическим миром
Эта гипотеза предвидит агентов, освобождающихся от их чисто цифровых границ для работы в физическом мире. Интегрируя агентный ИИ с робототехникой, мы увидим подъем "воплощенных агентов." Вместо того чтобы просто заказывать мастера, вы могли бы попросить вашего домашнего агента починить протекающий кран. Агент использовал бы свои сенсоры зрения для восприятия проблемы, получил бы доступ к библиотеке знаний по сантехнике для формулирования плана, а затем контролировал бы свои роботизированные манипуляторы с точностью для выполнения ремонта. Это представляло бы монументальный шаг, мостик между цифровым интеллектом и физическим действием, и трансформировало бы все от производства и логистики до ухода за пожилыми и домашнего обслуживания.
Гипотеза 4: Агент-управляемая экономика
Четвертая гипотеза заключается в том, что высоко автономные агенты станут активными участниками экономики, создавая новые рынки и бизнес-модели. Мы могли бы увидеть агентов, действующих как независимые экономические сущности, которым поручено максимизировать конкретный результат, такой как прибыль. Предприниматель мог бы запустить агента для управления целым e-commerce бизнесом. Агент идентифицировал бы трендовые продукты, анализируя социальные медиа, генерировал бы маркетинговый копирайтинг и визуалы, управлял бы логистикой цепочки поставок, взаимодействуя с другими автоматизированными системами, и динамически корректировал бы ценообразование на основе реального времени спроса. Этот сдвиг создал бы новую, гиперэффективную "агентную экономику", работающую на скорости и масштабе, невозможных для людей управлять напрямую.
Гипотеза 5: Целе-управляемая, метаморфическая многоагентная система
Эта гипотеза постулирует появление интеллектуальных систем, которые работают не из явного программирования, а из объявленной цели. Пользователь просто заявляет желаемый результат, и система автономно выясняет, как его достичь. Это отмечает фундаментальный сдвиг к метаморфическим многоагентным системам, способным к истинному самосовершенствованию как на индивидуальном, так и на коллективном уровнях.
Эта система была бы динамической сущностью, а не единственным агентом. Она имела бы способность анализировать свою собственную производительность и модифицировать топологию своей многоагентной рабочей силы, создавая, дублируя или удаляя агентов по мере необходимости для формирования наиболее эффективной команды для задачи под рукой. Эта эволюция происходит на множественных уровнях:
- Архитектурная модификация: На самом глубоком уровне индивидуальные агенты могут переписывать свой собственный исходный код и переархитектурировать свои внутренние структуры для более высокой эффективности, как в оригинальной гипотезе.
- Инструкционная модификация: На более высоком уровне система непрерывно выполняет автоматическую промпт-инженерию и инженерию контекста. Она улучшает инструкции и информацию, данную каждому агенту, обеспечивая их работу с оптимальным руководством без какого-либо человеческого вмешательства.
Например, предприниматель просто объявил бы намерение: "Запустите успешный e-commerce бизнес, продающий артизанский кофе." Система, без дальнейшего программирования, пришла бы в действие. Она могла бы изначально породить агента "Исследование рынка" и агента "Брендинг." Основываясь на начальных находках, она могла бы решить удалить агента брендинга и породить трех новых специализированных агентов: агента "Дизайн логотипа", агента "Платформа веб-магазина", и агента "Цепочка поставок." Она постоянно настраивала бы их внутренние промпты для лучшей производительности. Если агент веб-магазина становится узким местом, система могла бы дублировать его в трех параллельных агентов для работы над разными частями сайта, эффективно переархитектурируя свою собственную структуру на лету для лучшего достижения объявленной цели.
Заключение
По сути, AI-агент представляет значительный скачок от традиционных моделей, функционируя как автономная система, которая воспринимает, планирует и действует для достижения конкретных целей. Эволюция этой технологии продвигается от единственных, использующих инструменты агентов к сложным, совместным многоагентным системам, которые решают многогранные цели. Будущие гипотезы предсказывают появление универсальных, персонализированных и даже физически воплощенных агентов, которые станут активными участниками экономики. Это продолжающееся развитие сигнализирует о крупном сдвиге парадигмы к самосовершенствующимся, целе-управляемым системам, готовым автоматизировать целые рабочие процессы и фундаментально переопределить наши отношения с технологией.
Навигация
Назад: Введение
Вперед: Глава 1. Цепочки промптов